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格式 化 字符 串 漏洞 自动 检测 与 测试 用 例 生成 
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摘 要 : 格式 化 字符 串 漏 洞 是 一 种 危害 高 、 影 响 广 的 软件 漏洞 。 当 前 漏洞 检测 方式 存在 人 工 依赖 度 高 ， 误 报 率 高 ， 检 
测 模型 单一 , 未 能 充分 考虑 格式 化 字符 串 漏洞 特点 等 多 种 局 限 性 。 针 对 以 上 问题 , 对 格式 化 字符 串 漏洞 特征 进行 分 析 ， 
设计 并 实现 了 一 种 基于 符号 执行 的 格式 化 字符 串 漏 洞 自动 检测 与 测试 用 例 生成 的 系统 。 该 方法 可 自动 检测 Linux 下 二 
进 制 程序 中 格式 化 字符 串 漏 洞 的 存在 性 ， 判 定 其 是 否 可 能 导致 任意 内 存 读 写 危害 ， 并 生成 稳定 有 效 的 测试 用 例 。 
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Automatic detection and test cases generation of format string vulnerability based on symbol 
execution 
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Abstract: The format string vulnerability is a kind of software vulnerability which has high risk and wide impact. Currently, 
there are many limitations of vulnerability detection method, such as high degree of artificial dependence, high false positive 
rate, single detection model and failing to consider the characteristics of the format string vulnerability fully. To solve above 
problems, this paper analyzed the format string vulnerability. Then based on symbolic execution, the paper designed and 
produced a way to detect formatted string vulnerability and generate test cases automatically. This method could detect the 
existence of the format string vulnerability in Linux binary program automatically. Then it determined whether it could lead 
to harm, which allowed attackers to read or write arbitrary memory. Meanwhile it generated stable and effective test cases. 
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为 符号 表达 式 的 操作 ， 条 们 


判断 也 转换 为 符号 约束 。 接 着 利用 


0 ala Z3Pl, Yices!, STPI A RREA ETAR RA BAERE 
格式 化 字符 串 漏洞 在 通用 漏洞 类 型 库 CWE 中 解释 为 软件 。” 域 中 找到 与 各 变量 间 均 满足 约束 的 特定 变量 值 。 利 用 符号 执行 
使 用 了 格式 化 字符 串 作为 参数 ， 且 该 格式 化 字符 串 来 自 外 部 输 ”和 约束 求解 技术 检测 漏洞 并 生成 测试 用 例 的 方法 针对 性 强 ， 对 
入 。 其 主要 成 因 是 格式 化 字符 串 函 数 对 格式 化 控制 符 的 解析 缺 ”复杂 代码 逻辑 穿 透 性 好 ， 生 成 的 测试 用 例 准 确 性 高 ， 在 发 现 软 
陷 及 程序 员 对 用 户 输入 的 不 严格 过 滤 ， 导 致 外 部 输入 能 够 传递 。 件 漏洞 和 生成 测试 用 例 方面 有 着 较 好 效果 。 因 此 目前 出 现 了 一 
给 格式 化 控制 符 并 被 解析 站。 批 基 于 符号 执行 自动 化 进行 程序 分 析 和 漏洞 检测 的 工具 ， 如 
现 有 漏洞 挖掘 技术 所 发 掘 的 程序 错误 并 不 一 定 能 造成 实质 Cha 等 人 提出 的 Mayhem, Huang ATJE hK CRAX 和 
性 危害 ， 往 往 具有 较 高 误 报 率 和 漏 报 率 。 因 此 针对 漏洞 特性 ， Shellphish 提出 的 angri$4, 但 这 些 工具 也 存在 漏洞 检测 模型 较 
产生 准确 度 高 的 稳定 测试 用 例 十 分 重要 。 现 阶段 漏洞 检测 方式 。 ”为 单一 等 局 限 性 ， 且 未 能 充分 考虑 格式 化 字符 串 漏洞 特点 。 以 
上 ， 人 工 漏洞 检测 技术 效率 低下 且 对 人 工 经 验 依赖 性 强 ， 往 往 。” CRAX 为 例 , 其 在 漏洞 存在 性 判定 时 , 仅 监 视 IP 寄存 器 并 以 IP 
需 辅 以 自动 化 工具 进行 ;传统 漏洞 自动 检测 工具 ,如 fuzzing 等 ， 内 容 是 否 被 外 部 输入 符号 化 为 判定 标准 ， 虽 然 该 判定 思路 基本 
针对 性 不 强 、 盲 目 生成 测试 用 例 导致 误 报 率 较 高 且 路 径 覆 盖 率 ”符合 多 数控 制 流 劫持 漏洞 触发 后 的 特征 ， 但 部 分 漏洞 危害 并 非 
有 限 、 穿 透 性 不 强 。 局 限于 IP 符号 化 , 如 格式 化 字符 串 漏 洞 就 可 造成 任意 地 址 读 写 
符号 执行 所 使 用 符号 化 输入 来 代 蔡 实际 和 输入， 该 符号 值 可 WEE. 
表示 程序 在 此 接收 的 所 有 可 能 输入 ， 进 而 程序 中 的 操作 被 转换 本 文 针 对 现 阶 段 格式 化 字符 串 漏 洞 检测 技术 中 存在 的 缺陷 ， 
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以 准确 检测 并 生成 相应 测试 用 例 为 目标 ， 针 对 linux. 系统 下 
C 语言 或 C++ 编写 生成 的 小 规模 二 进 制 程序 ， 设 计 了 一 个 基于 
符号 执行 的 格式 化 字符 串 漏洞 自动 检测 与 测试 用 例 生 成 方法 ， 
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展示 的 格式 化 字符 
过 “%m" 格 式 化 控制 符 


并 基于 S2E 符号 执行 引擎 实现 了 一 个 格式 化 字符 串 漏洞 检测 与 


甚至 覆盖 函数 返 


测试 用 例 生成 系统 FSVDTG Cformat string vulnerability detection 


and test cases generation). 

1 ， 格式 化 字符 串 漏洞 

格式 化 字符 串 函 数 与 格式 化 控制 符 

格式 化 字符 串 函 数 即 向 标准 输出 设备 或 文件 等 指定 的 地 方 
内 


输出 指定 格式 内 容 的 函数 ，ANSI C 规范 中 定义 了 大 量 格式 化 
字符 串 函 数 。 典 型 格式 化 字符 串 函 数 如 表 1 所 示 。 


1.1 


igna, 


可 地 址 、GOT x 


[= 


串 漏洞 可 造成 的 内 存 信息 泄 
还 可 进行 内 存 数据 修改 59， 
址 等 ， 达 到 控制 流 劫持 的 目 


低地 址 处 
人 
Bo | 。 格式 控制 符 
E! rintf 函 数 
长 | | 变量 1 (数值 9) Kies 
Hij am ( 数 信 b〉 || 
变量 3(c 的 地 址 值 ) | | 区 
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图 1 正常 运行 时 printf 函数 栈 空 间 分 布 


2 ”格式 化 字符 串 漏 洞 检测 与 测试 用 例 生成 


2.1 


系统 整体 架构 
通过 对 格式 化 字符 串 漏 洞 的 分 析 ， 为 ; 


的 生成 稳定 的 测试 
号 执行 与 约束 求解 技术 思想 ， 
设计 并 实现 了 格式 化 字符 中 


FSVDTG. 


16], KLF RMTI RP id Je 
在 S2E 


确 检测 并 有 针对 性 
里 和 符 


符号 执行 引擎 的 基础 上 ， 


动 检测 与 测试 | 


] 例 自动 生成 系统 


FSVDTG 系统 首先 定义 printf, sprintf 等 格式 化 字符 串 函 


数 为 不 安全 函数 


了 并 将 二 


中 的 格式 化 控制 符 参 数 记 为 format 参 


数 ， 同 时 定义 格式 化 字符 串 函 数 中 的 format 参数 内 容 不 应 是 符 


号 值 的 安全 策略 


。 人 然后 挂钩 不 安全 


PKI 


数 ， 收 集 到 达 不 安全 函数 


程序 点 的 路 径 上 的 约束 形成 路 径 约 束 ， 并 在 到 达 不 安全 函数 程 


del 典型 格式 化 字符 串 函 数 
函数 作 
printf 打印 到 stdout 流 
fprintf 打印 到 FILE 流 
sprintf 打印 到 字符 串 
snprintf 打印 一 定 长 度 字符 到 字符 串 
vprintf 从 va_arg 结构 打印 到 stdout 流 
vfprintf 从 va_arg 结构 打印 到 FILE 流 
vsprintf 从 va. arg 结构 打印 到 字符 串 
vsnprintf 从 va arg 结构 打印 一 定 长 度 字符 到 字符 串 
除了 上 述 标 准 函 数 外 ,还 有 用 于 输出 到 syslog 设施 的 syslog 
函数 、 用 于 设置 argv[] 的 setproctitle 函数 ， 与 其 他 类 似 err*、 
Verr*、  wam*, vwarn* 的 函数 等 。 
表 2 部 分 格式 化 控制 符 
格式 化 控制 符 含义 对 应 参数 值 
%x 以 十 六 进 制 形式 格式 化 值 
%s 以 字符 串 形式 格式 化 指针 〈 引 用) 
将 已 打印 字符 数 (DWORD 值 ) 输 pu tane 


出 到 指定 变 元 所 指向 地 址 


函数 参数 方面 , 以 最 常见 的 printf 为 例 , 其 参数 主要 包括 
格式 化 控制 符 和 待 输 出 数据 列表 两 部 分 。 其 中 格式 化 控制 符 用 
于 指定 待 输出 数据 的 输出 格式 ， 其 后 可 填充 待 输 出 变量 参数 ， 
格式 化 控制 符 与 变量 参数 对 应 ”。 格 式 化 控制 符 存在 许多 不 同 
的 数据 类 型 ， 本 文 主要 介绍 与 格式 化 字符 串 漏 洞 紧密 相关 的 格 
式 化 控制 符 ， 如 表 2 所 示 。 
1.20 ” 栈 与 格式 化 控制 符 

格式 化 字符 串 函 数 根据 格式 化 控制 符 的 指示 从 栈 空间 取得 
参数 ， 如 对 于 如 下 C 语句 ， 栈 空间 的 排列 分 布 如 图 1 所 示 。 


printf ("a = 96d, b = 96d, c =%08x\n", a, b, &c); 


正常 情况 下 格式 化 控制 符 中 的 每 一 个 百 分 号 “%” 对 应 栈 
空间 中 一 个 参数 ， 但 由 于 格式 化 字符 串 函 数 是 可 变 参 函数 ， 即 
使 百 分 号 “%” 的 数目 与 格式 化 字符 串 函 数 实 际 参数 数目 不 相 
同 ， 格 式 化 字符 串 函 数 也 无 法 察觉 ， 并 仍 会 继续 从 栈 空间 的 下 
一 个 区 域 取 出 对 应 数据 作为 下 一 个 参数 ， 并 按照 给 定格 式 化 控 


危害 的 若干 约束 


的 前 提 下 对 该 测试 用 例 约束 进行 求 
即 得 到 测试 用 例 。 


漏洞 并 自动 构造 


序 点 时 进行 安全 策略 检测 。 若 符合 
违反 安全 策略 ， 则 在 约束 集合 


， 由 此 构建 测试 ) 


安 


全 策略 ， 则 继续 执行 ; 若 


添加 可 触发 格式 化 字符 串 漏 洞 
1 


约束 ， 再 在 当前 路 径 约束 


出 可 行 解 ， 


输入 该 测试 ) 


JAE, 


写 功能 。 


开始 


运行 目标 程序 


对 不 安全 函数 API 挂钩 


满足 安全 策略 ?> 一 是 


Li 
判定 存在 漏洞 点 
测试 用 例 约束 构建 


约束 求解 “> 无 


BE 
生成 测试 用 例 
CER ) 


解 。 


其 将 能 触发 格式 化 字符 串 
系统 运行 流程 如 图 2 所 示 。 


若 有 解 则 认为 存在 程序 
后 续 执 行 测试 并 
届 洞 执行 任意 读 


图 2 FSVDTG 系统 运行 流程 


Chi KV 合作 
录用 稿 X H, 等 : RUE P A naX VETERE 
测试 用 例 生成 方面 ， 格 式 字 符 串 漏洞 一 般 用 于 进行 内 存 地 EqExpr 于 生成 二 元 比较 “等 于 ”形式 的 约束 的 函数 
址 的 读 写 ， 具 体 来 说 通常 使 用 %x、%s 等 格式 化 控制 符 进行 任 Memory 以 内 存 地 址 为 下 标 ， 记 录 该 地 址 中 内 存 值 的 数组 


意 地 址 内 存 读 , 使 用 %n 进行 任意 内 存 写 , 配合 格式 化 控制 符 中 此 思路 可 构建 相应 利用 约束 ， 将 junk_constraint、 
的 “$” 即 可 构造 一 个 简洁 的 测试 用 例 以 实现 任意 内 存 读 写 。 例 addr constraint 和 form constraint 三 项 约束 经 过 合 取 即 形成 测 


如 “%3$n”， 其 中 “3$” 表 示 该 “%n” 对 应 于 待 输出 数据 列表 试用 例 约束 TestCase constraint， 即 如 式 (1) Br. 

中 第 3 个 参数 指向 的 内 存 值 ， 若 格式 化 字符 串 函 数 的 参数 列表 TestCase. constraint-junk _ constraint ^ 

中 没有 第 3 个 参数 ， 则 会 写 入 从 栈 空间 相应 内 存 地 址 中 。 由 此 addr _ constraint ^ (1) 
思路 ， 本 文 可 结合 符号 执行 技术 构建 相应 测试 用 例 。 form. constraint 

2.2 漏洞 存在 性 检测 为 便于 描述 约束 构建 过 程 ， 定 义 如 表 3 表示 形式 。 

在 格式 化 字符 串 漏洞 的 检测 中 ，FSVDTG 系统 首先 应 检测 ”2.3.1 junk constraint 约束 

不 安全 函数 调用 处 是 否 能 满足 既定 安全 策略 ， 即 检测 格式 化 字 junk_constraint 约束 即 对 junk 字符 部 分 的 约束 。 由 于 格 
符 串 函数 的 格式 化 字符 串 参 数 部 分 是 否 为 符号 值 。 若 为 符号 值 ， 式 化 字符 串 发 生 时 输入 部 分 往往 会 读 入 缓冲 区 中 进而 存储 在 栈 


则 代表 该 format 参数 可 被 外 部 输入 影响 ,进而 认为 可 能 存在 可 ”空间 中 ， 所 以 可 将 准备 读 取 的 地 址 放置 在 输入 部 分 的 开头 。 具 


利用 的 漏洞 。 体 的 junk 字符 数目 计算 如 下 : 
有 具体 实现 上 , 首先 对 printf 等 格式 化 字符 串 函数 进行 挂钩 。 junk_num = 4-(format-formatArea_StartAddr)%4; 
挂钩 时 提供 静态 挂 钧 和 动态 挂钩 两 种 支持 。 静 态 挂钩 时 通过 函 if junk_num==4 
数 签名 识别 函数 以 确定 函数 静态 地 址 ， 进 而 可 由 函数 静态 地 址 junk num-0; 
对 函数 进行 挂钩 ， 动 态 挂钩 时 通过 自 定义 init env 库 ， 并 通过 同时 ， 为 使 得 该 段 junk 字符 不 影响 printf 参数 的 读 入 ， 
LD PRELOAD 加 载 init_env 共享 库 , 使 得 程序 运行 前 优先 加 载 。 该 段 字 符 不 能 包含 “\x00”， 则 junk constraint 约束 构建 过 
自 定 义 的 init env 链接 库 来 挂钩 函数 。 然 后 通过 回调 函数 获取 ”” 程 如 下 伪 代 码 : 
其 format 参数 在 栈 空间 中 的 地 址 , 并 检查 其 内 容 是 否 为 符号 值 。 for i«- formatArea StartAddr to 
若 为 符号 值 ， 说 明 格式 化 字符 串 可 被 外 部 输入 影响 ， 则 接 下 来 formatArea_StartAddr+junk_num do 
a i 若 不 为 符号 值 ， 则 不 作 处 理 。 junk, constraint = NotExpr( EqExpr (Memory[i] , 0x00) ) 
为 确定 format 是 否 为 符号 值 ， 搜索 并 记录 下 符号 化 区 域 的 。 2.3.2 addr constraint 约束 
calor HA UM addr constraint 构建 即 对 测试 用 例 中 addr 区 域 是 否 能 等 
在 即 可 判断 format 参数 是 符号 值 , 并 将 format 参数 所 在 的 地 址 ”于 本 文 指定 要 读 / 写 的 地 址 值 的 约束 。 约 柬 构建 过 程 如 下 伪 代 码 ; 
WX format ， 将 format 参数 所 在 的 符号 区 域 起 始 地 址 记 为 fori<-lto4do 


formatArea StartAddr. addr constraint = EqExpr( 
2.8 ”任意 地 址 读 测试 用 例 约束 构建 Memory[formatArea StartAddr*junk num-i], 
对 于 任意 地 址 读 ， 由 于 格式 化 漏洞 产生 时 其 format 参数 的 addr[i] ) 
容 来 自 于 输入 ， 且 该 输入 内 容 往 往 也 存在 于 栈 空间 ， 所 以 也 。 ”2.3.3 form constraint 约束 
可 控制 在 该 输入 内 容 的 起 始 处 设置 为 准备 读 取 的 地 址 ， 然 后 配 form constraint 约束 即 对 测试 用 例 中 真正 造成 任意 内 存 


> 


合 “$” 使 得 “%s” 指 向 该 地 址 值 在 栈 上 的 位 置 ， 进 而 可 通过 字 E R E A. 

符 串 形式 读 取 该 地 址 处 内 容 。 对 于 构造 任意 地 址 测试 用 例 时 ， 该 部 分 形 如 “%B$s”， 典 
此 可 构造 形 如 “junk+ addr + %B$s” 的 测试 用 例 。 其中。 中 正 整 数 B 通过 “$” 符 号 保证 此 时 格式 化 字符 串 函数 要 操作 

B 为 某 个 正 整数 ， 使 得 通过 “B$” 能 指向 到 的 参数 在 栈 上 取得 ”的 参数 指向 准备 写 入 的 地 址 。 其 计算 如 下 : 

的 对 应 恰 是 本 文 的 addr; addr 为 本 文 准备 读 取 的 地 址 ， 可 通过 B= (format-formatArea_ StartAddr-1)/4 +1; 

lua 脚本 自行 指定 ,由 于 发 生 格 式 化 串 漏洞 时 输入 部 分 会 被 存放 此 将 “%B$s” 内 容 转换 成 字符 串 形式 存储 在 form str 

在 栈 中 ， 且 成 为 格式 化 字符 串 函 数 的 format 参数 , 所 以 addr 作 。 数组 中 ， 则 form constraint 约束 构建 过 程 如 下 伪 代 码 ; 

为 format 参数 的 一 部 分 也 会 存在 于 栈 中 的 某 个 位 置 。 若 通过 rica 

“B$” 指 向 addr， 则 就 能 使 得 “%s” 从 本 文 指定 的 addr 开始 


Ud 


A 


to len(form str) do 


addr constraint — 


读 取 直到 Ww00;， 而 男 一 方面 “$” 选 取 参 数 时 以 4 字 节 为 单位 ， 。 EqExpr (Memory[formatArea. StartAddr*junk. num+4+i] , form str[i] ) 
因此 junk 是 作为 淡 齐 4 字 节 对 其 的 填充 字符 。 2.4 ”任意 地 址 写 测试 用 例 约束 构建 

RI 约束 构建 过 程 函 数 /数组 定义 对 于 任意 地 址 写 ， 可 构造 形 如 “junk + addr + %Ax%Bs$n” 或 
函数 名 /数组 名 AX “junk + addr + %Cx%DS$hno%BExo%FS$hn> 的 测试 用 例 ， 其 中 junk, 


ir 


NotExpr 于 生成 一 元 " 取 反 ”形式 的 bool 型 约束 的 函数 addr 与 任意 地 址 读 时 测试 用 侦 


M 


中 的 含义 相同 ， A. C. D 为 正 
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整数 ， 用 于 控制 当 


HU 


对 应 参数 为 addr; 预 写 入 的 数据 同样 可 通过 lua 
例 约束 TestCase constraint 仍 


此 时 测试 


已 输出 字符 数 ; ERA B. DF 使 得 通过 %n 


却 本 自行 指定 。 


addr constraint 和 form constraint 合 取 形成 ， 形 如 式 CIO, 其 中 


任意 地 址 写 时 的 junk constraint 及 addr constraint 约束 的 构建 
均 与 任意 地 址 读 时 类 似 ， 只 需 将 准备 进行 读 取 的 地 址 变换 为 准 
备 进行 写 入 的 地 址 即 可 ， 故 此 处 不 是 
上 写 时 的 form constraint 约束 构建 。 
约束 是 


HEH 


form constraint 


FIOR,  POCESESUATERE 


对 “ 


%AxX%B$n " 或 


“%Cx%D$hn%Ex%F$hn” 部 分 的 约束 , 利用 %n 可 将 已 打印 出 


junk constraint、 


* 4l, #: 


解 ， 使 得 所 得 解 既 能 保证 


. . H 
C hinaX iv AE: p 1 成 


格式 化 字符 


AN 


约束 。 若 有 解 则 可 利用 ， 


再 行 构建 测试 用 例 。 由 于 


以 为 使 得 增加 junk 字符 后 “$” 仍 指向 


束 时 需 进 行 如 下 调整 


“$” 所 指 


到 达 漏 洞 触发 点 ， 又 能 满足 测试 用 
再 优化 路 径 约 束 ， 然 后 进行 求解 ， 解 
出 一 个 满足 约束 条 件 的 实例 ; 若 无 解 , 则 增加 一 些 junk 
[5] l 


字符 后 
分 以 4 字 节 为 跨度 , 所 


addr, 每 次 重新 构造 约 


junk_num = junk_num+4; 


A = A-4; 
B = B+1; 
然后 由 此 再 按照 4，3 节 中 步骤 重新 构建 TestCase 约束 


I 求 得 一 个 可 行 解 或 所 构建 的 测试 用 例 总 体 长 度 超出 
或 长 度 时 停止 。 若 得 到 可 行 解 ， 将 其 输出 即 可 得 到 


为 直观 说 明 实验 效果 ， 本 文 以 pingme 二 进 制 程序 的 测试 


用 例 生成 过 程 为 例 ， 对 本 文 方法 进行 演示 。 该 程序 在 ida rp ft 
H sub 804858B 函数 伪 代 人 码 如 


char format; // [sp*Ch] [bp-4Ch]G2 


28); 


if ( sub 884858B(&íornat, 64) ) 


的 字符 串 长 度 写 入 内 存 的 特性 完成 任意 地 址 写 入 。 有 具体 来 求解 ， 直 到 
说 ，%n 能 够 一 次 性 改写 起 始 于 该 内 存 地 址 后 一 个 DWORD 长 ” 当前 符号 区 域 
度 的 内 容 。 若 待 写 入 数据 过 长 ， 直 接 写 入 一 整个 DWORD KE 完成 任意 地 址 读 或 任意 地 址 写 的 测试 用 例 。 
可 能 需 占用 过 长 缓冲 区 ， 进 而 可 能 导致 程序 骨 误 或 等 候 时间 过 E 
长 ， 此 时 可 通过 %hn 来 适时 调整 。%hn 功能 与 %n 类 似 ,但 %hn 实验 
次 性 只 改写 一 个 WORD, 可 通过 2 个 %hn 分 两 次 来 改写 一 个 
DWORD 长 度 内 容 。 虽 然 使 用 %hn 时 需要 的 已 输出 字符 数 较 少 ， j 
但 由 于 需要 进行 多 次 写 入 ， 所 得 的 测试 用 例 就 会 变 长 ， 而 部 分 看 其 伪 代 码 情况 如 图 3 所 示 。 dr] 
环境 下 对 输入 缓冲 区 长 度 有 所 限制 ,导致 所 构造 测试 用 例 失效 。 图 4 所 示 。 
因此 %n 和 %hn 应 视 情况 调整 使 Jo "rn . cdeci — noreturn mainí) 
364 forn 部 分 测试 用 例 形式 dq A ar ee 
格式 化 控制 符 。” ”使 用 条 件 form 部 分 测试 用 例 形式 , aN na — 
%n data-0x10000  %Ax%B$n dE EK a 
%hn data>0x10000 %Cxo%D9$hn%Ex%F$hn e n 
具体 构造 “%Ax%B$n” 形式 的 测试 用 例 主体 部 分 时 ， 同 样 以 人 
将 预 写 入 数据 记 为 data, HLA high 和 low 分 别 表 data 的 两 高 "t Sic 
位 字 节 和 两 低位 字 节 的 数值 ， 预 进行 号 入 的 地 址 记 为 addr。 17 piini 
体 构造 form 部 分 测试 用 例 形式 如 表 4 所 示 , 其 中 A、B、C、D、 E 
E、F 均 为 正 整数 。 21 


其 中 A、B 值 计算 如 下 : 


A = data — junk — 4 ; //4 is the length of addr 
B = ( format - formatArea StartAdd -1 )/4 +1; 


而 对 C、D、E、F， 由 于 %n 和 %hn 是 根据 当前 格式 化 字符 串 


函数 已 输 


字符 数 进行 数据 写 入 的 ， 故 需 比 较 high 与 low 部 


分 的 数值 大 小 ， 先 写 入 其 中 的 较 小 值 ， 再 写 入 较 大 值 。 具 体 计 


算 如 表 5 所 示 。 


表 5 数值 计算 
计算 条 件 C D E F 
high «low addr+2  high-junk-4 addr low — high 
highzlow addr low—junk-4 addr+2 high- low 
2.5 ”约束 求解 及 再 次 构建 
通 过 将 junk constraint 、  addr constraint 和 


for 


| constraint 三 项 约束 进 


行 合 取 即 形成 TestCase 约束 ， 然 


后 调用 约束 求解 器 ， 在 当前 路 径 约 束 的 前 提 下 对 该 约束 进行 求 


图 3 pingme 程序 伪 代 码 


size t 
char *v3; 


fgets(s, n, 
v3 = strchr( 
if ( v3) 
xvu3 = B; 
return strle 


"7009 
eococwuomuanauwva 
ma 


stdin}; 
s, 18): 


n(s): 


. cdecl sub 884858B(char xs, 


int n) 


14 [sp*Ch] [bp-Ch]G1 


x] 4. sub 804858B 函数 伪 代 码 


可 以 看 到 该 程序 代码 逻辑 为 先 由 fgets 函数 获取 一 个 输入 ， 
检查 其 长 度 不 为 0 后 即 通过 printf 函数 输出 。 但 是 其 通过 


printf 函数 输出 时 直接 将 输入 内 容 作为 printf 的 format 


的 测试 


生成 的 测试 


Jl, HPR 


体内 容 如 


参 


3 的 第 13 行 处 存在 一 个 格式 化 字符 串 漏 洞 。 

为 便于 观察 实验 效果 ， 本 实验 拟 生 成 通过 该 格式 化 字符 串 
漏洞 将 对 printf 函数 的 got 表 地 址 改写 为 system 函数 的 地 址 
Jil. £& FSVDTG 系统 后 分 析 得 到 分 析 结 果 如 图 5 所 示 。 
发 现 0xbffff53c 处 的 format 参数 被 符号 化 。 使 用 ghex 查看 


区 


6 所 示 。 


录用 稿 


3220 printf() entry-hook invoked 
nis 74 


mbolic Array at Oxbfffe478, width 12 


Array at Oxbfffe488, width 4 


rray at OxbffffS3c, width 60 


o w/r= 0x8049974 


f 9 constraints 


e to file /hone/acdax/Desktop/test/testcase-1.bin--- 
write... 


"s 


5 系统 分 析 结 果 


00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00|. 
00 00 00 00 00 00 00 00 00 00 00 00 


区 | 


6 ghex 查看 测试 


例 结果 


eived Ox2b bytes: 


pingme 


test test2 


y pingme test test2 testcase-1.bin 


.[test ./test3 


] Sent 0x12 bytes: 
'cp ./test ./test3|n' 
] Received 0x1 bytes: 


"nt 


] Sent 0x3 bytes: 


'lsAn" 


] Received 0x32 bytes: 


testcase-1.bin|n' 


'1.py pingme test test2 test3 testcase-1.binin' 


\n 
1.py pingme test test2 test3 testcase-1.bin 


图 


见 1s 和 
数 的 got 表 地 ] 
的 测试 / 


7 以 测试 
将 本 系统 生成 的 测试 用 例 作 为 输入 
cp 命令 执行 均 成 功 ， 
址 被 成 功 改写 为 sys 
TRUE AIC 


> 


本 文选 用 


四 个 


pingme, 


2: 也 是 FH 


序 均 采用 


含 缓冲 
实验 ， 其 中 一 个 程序 为 典型 
式 化 字符 串 漏洞 ， 一 个 程序 选 自 
printf 引起 的 ; 其 
sprintf 和 fprintf 引起 的 格式 
C 语言 或 C++ 进行 编 


c 


Lem 


区 溢出 漏洞 


LE TER 


RAI 


例 为 输入 后 pingme 运行 结果 
后 效果 如 
此 测试 用 例 执行 后 printf PR 
函数 的 地 址 ， 故 所 生成 


Z] 


7 所 示 。 可 


的 二 进 制 实验 程序 进行 
printf 使 用 不 规范 引发 的 格 
NJCTF 2017 的 200 分 PWN 题 


I 试 程序 分 别 仿 有 


d. 上述 测试 程 


写 。 实 验 宿 3 


机 配 


LJ: Intel 


Core i7 CPU@3. 60 GHz. 16 GB Aff. ubuntu 系统 ， 虚 拟 机 配 


O mÍÓhN UU ANANG 


为 1 GB AE, 
均 约 束 求解 时 间 和 测试 用 


ubuntu 系统 。 记 录 4 个 程序 在 本 系统 中 的 平 
例 平 均 生 成 时 间 如 表 6 所 示 。 


表 6 FSVDTG 系统 下 实验 结果 /s 


7.46 
531 5.85 
4.77 
3 
2 2 
1 


printf pingme sprintf  fprintf - 


fmtstr 


fmtstr 


fmtstr 


国平 均 约束 求解 时 间 m JUR PITE 25 5: BREST [8] 


为 与 已 有 其 他 方法 进行 对 比 ， 对 上 述 4 个 测试 程序 再 


ZHE 


直接 运行 和 使 用 
记录 其 直接 运行 时 间 及 各 工 


分 别 


CRAX、AFL、pwntools 的 方式 进行 测试 ， 


下 从 运行 到 测试 用 例 生成 时 


记录 结果 如 表 7 所 示 。 所 记录 时 间 均 为 平均 提 


Rp CRAX 是 与 本 系统 工作 原理 一 致 日 


间 ， 
E 钟 时 间 。 各 项 工 


都 是 基于 S2E 实现 的 ， 


而 pwntools 


格式 化 字符 串 漏洞 测试 用 例 的 


虽然 不 是 基于 符号 执行 实现 的 ， 但 却 是 E 


: ALS lr HB 
I X IVE 1 F RH 
A A, F: KRLPRERA AARIS 


(FERATI 
1 与 测试 用 例 生成 


动 生成 


HI T: 


生成 测试 


表 7 


j 例 的 经 


= 


各 工具 测试 


具 ，AFL 是 基于 模糊 测试 


平均 生成 时 间 结 果 /s 


实验 工具 ”printf . sprintf fprintf _ 
. ` pingme 
测试 程序 fmtstr fmtstr fmtstr 
直接 运行 0. 20 0. 34 0. 27 0. 28 
FSVDTG 4. T] 7.46 5.31 5.85 
CRAX N/A N/A N/A N/A 
pwntools 0.31 0.57 N/A N/A 
AFL 31 N/A 39 48 
针对 该 实验 结果 分 析 如 下 : 
CRAX 是 较为 典型 的 基于 符号 执行 的 测试 用 例 自动 生成 工 


具 ， 但 其 在 漏洞 建 模 方面 
试用 例 生成 ， 尽 管 其 对 多 数 


pwntools 


印 值 确 定 for 


sprin 


T 


纯 的 格式 化 字符 
存 器 的 ， 故 CRAX 对 
本 文 所 提出 的 方法 
的 执行 效率 较 高 
化 字符 串 漏洞 生成 测试 用 例 速 度 快 ， 
at 参数 与 输入 缓冲 
数 引 起 的 格式 化 字 
] 例 均 可 直接 触发 格式 化 字符 


tf 和 fpri 
pwntools 所 生成 


漏洞 采用 


Ud 


岂可 作为 对 


般 测试 输入 是 
4 个 程序 测试 结果 均 为 WA， 即 不 适用 ， 而 
CRAX 的 一 种 补充 。 

， 针 对 


了 对 IP 寄存 器 被 劫持 的 情况 进行 测 
空 制 流动 持 类 漏洞 效果 较 好 ， 


但 单 


print 


tf 等 函 


区 


的 测试 


行 测试 


进行 指定 地 址 读 写 ， 而 非 单纯 
AFL 是 模糊 测 
JHJE, 


其 适用 HJ ， 


>l 


随机 性 较 高 ， 


程序 成 功 生 成 了 


其 原因 主要 是 | 


死 循环 ， 


时 AFL 生成 的 测试 


定 地 址 读 写 。 


实验 结果 表明 ， 本 文 所 实 


此 生成 测 ; 
测试 用 例 ， 


间 的 偏 移 ， 


不 能 覆盖 


但 其 需 通过 p 


P 可 


F 函数 引起 的 格式 


rintf 的 打 
故 无 法 处 理 | 


Ac 日 


^j G3 T8 


洞 ， 但 


HAHI o 
试 的 常用 工具 之 一 ， 甚 采用 下 


但 生成 测试 用 例 过 程 


串 漏 洞 


ing 技术 进 
A HIE 


uzz 


E 


例 时 间 长 。AFL 最 终 对 其 
pingme 程序 未 能 生成 测试 


中 3 
4 VM 


y 


于 pingme fH 


AM 
中 人 省 


导致 AFL 无 法 跳出 循环 ， 最 终 示 能 


用 例 也 可 直接 / 


] 例 主要 功能 只 是 单纯 触发 局 


] 于 指定 地 址 读 写 。 其 基于 符号 
需要 对 数据 进行 符号 化 处 理 等 复杂 操作 ， 


个 可 进行 持续 输入 的 
成 测试 ) 


18. F 


现 的 FSVDTG 系统 所 生成 的 测 i 


省 而 非 进行 指 


执行 实现 ， 由 于 


其 处 理 速度 相 较 于 


pwntools 较 慢 , 但 可 对 多 种 函数 引起 的 格式 化 字符 串 漏 洞 进行 
测试 用 例 生成 。 
4 ”结束 语 

本 文 总 结 了 格式 化 字符 串 漏洞 的 相关 原理 ， 并 设计 实现 了 
一 种 基于 符号 执行 的 格式 化 字符 串 漏洞 自动 检测 与 测试 用 例 生 
成 的 方法 ， 以 检测 linux 下 二 进 制 程序 存在 的 格式 化 字符 串 漏 
洞 ， 判 定 其 是 否 会 导致 任意 内 存 读 写 危 害 ， 并 生成 完成 任意 地 


址 读 写 功能 的 稳定 测试 用 例 。 最 后 通 


有 效 性 ， 并 与 同类 方法 进行 了 对 比 。 


过 实验 验 订 


E 了 测试 用 
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